剛學習LLM的時候,只會知道要用GPU,因為他的平行計算能力比較快。不過真的只有這樣嗎? (圖源: 自製) 在運算的過程中,最主要會消耗的是大量的記憶體(資料...
簡介 昨天 Hugging Face Transformers 發布 v4.42 版,其中 Quantized KV Cache 這個功能特別吸引我,看到量化就...
IT邦幫忙